变压器验证引起了机器学习研究和行业的越来越多的关注。它正式验证了变压器对对抗性攻击的鲁棒性,例如用同义词交换单词。但是,由于以中线为中心的计算,变压器验证的性能仍然不令人满意,这与标准神经网络有显着差异。在本文中,我们提出了信仰,这是用于GPU的变压器验证的有效框架。我们首先提出一个语义意识的计算图转换,以识别语义信息,例如变压器验证中的结合计算。我们利用此类语义信息,以在计算图级别启用有效的内核融合。其次,我们提出了一个验证专门的内核手工艺品,以有效地将变压器验证映射到现代GPU。该手工艺者利用了一组GPU硬件支持,以加速通常是内存密集型的验证专业操作。第三,我们提出了一个专家指导的自动调整,以纳入有关GPU后端的专家知识,以促进大型搜索空间探索。广泛的评估表明,Faith在最先进的框架上实现了$ 2.1 \ times $至$ 3.4 \ times $($ 2.6 \ times $)的加速。
translated by 谷歌翻译
图形神经网络(GNN)的输入图的大小不断增加,突显了使用多GPU平台的需求。但是,由于计算不平衡和效率较低的通信,现有的多GPU GNN解决方案遭受了劣质性能。为此,我们提出了MGG,这是一种新型的系统设计,可以通过以GPU为中心的软件管道在多GPU平台上加速GNN。 MGG探讨了通过细粒度计算通信管道中隐藏GNN工作负载中远程内存访问延迟的潜力。具体而言,MGG引入了管​​道感知工作负载管理策略和混合数据布局设计,以促进通信局限性重叠。 MGG实现以优化的管道为中心的内核。它包括工作负载交织和基于经经的映射,以进行有效的GPU内核操作管道和专门的内存设计以及优化,以更好地数据访问性能。此外,MGG还结合了轻巧的分析建模和优化启发式方法,以动态提高运行时不同设置的GNN执行性能。全面的实验表明,MGG在各种GNN设置上的最先进的多GPU系统要比最先进的多GPU系统:平均比具有统一虚拟内存设计的多GPU系统快3.65倍,平均比DGCL框架快7.38倍。
translated by 谷歌翻译
精确学习动力学模型是基于模型的增强学习(MBRL)的重要目标,但是大多数MBRL方法都学习了一个易于虚假相关性的密集动力学模型,因此对看不见的状态的推广不佳。在本文中,我们引入了与任务无关的状态抽象(CDL)的因果动力学学习,该学习首先学习了理论上证明的因果动力学模型,该模型消除了状态变量和动作之间不必要的依赖性,从而很好地推广到了看不见的状态。然后可以从学习的动力学中得出状态抽象,这不仅提高了样本效率,而且还适用于与现有状态抽象方法更广泛的任务范围。在两个模拟环境和下游任务上进行了评估,所提出的方法学到的动力学模型和政策都可以很好地推广到看不见的状态,而派生的态度抽象则提高了样本效率,而没有它。
translated by 谷歌翻译
自主代理在Atari Games等专业领域取得了长足的进步。但是,他们通常在具有有限和手动构想的目标的孤立环境中学习Tabula Rasa,因此未能跨越各种任务和能力。受到人类如何不断学习和适应开放世界的启发,我们主张建立通才代理的三位一体:1)一个支持多种任务和目标的环境,2)多模式知识的大规模数据库和3个数据库)灵活且可扩展的代理体系结构。我们介绍了MinedoJo,这是一个建立在流行的Minecraft游戏上的新框架,该游戏具有模拟套件,其中包含数千种不同的开放式任务,以及带有Minecraft视频,教程,Wiki页面和论坛讨论的Internet规模知识库。使用Minedojo的数据,我们提出了一种新型的代理学习算法,该算法利用大型预训练的视频语言模型作为学习的奖励功能。我们的代理商能够解决以自由形式的语言指定的各种开放式任务,而无需任何手动设计的密集塑造奖励。我们开源的仿真套件和知识库(https://minedojo.org),以促进研究的研究,以通常具有能力的体现药物的目标。
translated by 谷歌翻译
最近,作为基于图形机器学习的骨干的图形神经网络(GNN)展示了各个域(例如,电子商务)的巨大成功。然而,由于基于高稀疏和不规则的图形操作,GNN的性能通常不令人满意。为此,我们提出,TC-GNN,基于GNN加速框架的第一个GPU张量核心单元(TCU)。核心思想是将“稀疏”GNN计算与“密集”TCU进行调和。具体地,我们对主流GNN计算框架中的稀疏操作进行了深入的分析。我们介绍了一种新颖的稀疏图翻译技术,便于TCU处理稀疏GNN工作量。我们还实现了一个有效的CUDA核心和TCU协作设计,以充分利用GPU资源。我们将TC-GNN与Pytorch框架完全集成,以便于编程。严格的实验在各种GNN型号和数据集设置的最先进的深图库框架上平均显示了1.70倍的加速。
translated by 谷歌翻译
本文介绍了Yidun Nisp团队向视频关键字唤醒挑战提交的系统。我们提出了一个普通话关键字发现系统(KWS),具有几种新颖且有效的改进,包括大骨干(B)模型,一个关键字偏置(B)机制和版本建模单元的引入。通过考虑一下,我们将总系统BBS-KWS作为缩写。 BBS-KWS系统由端到端的自动语音识别(ASR)模块和KWS模块组成。 ASR模块将语音特征转换为文本表示,文本表示将大骨干网络应用于声学模型,并考虑了音节建模单元。另外,关键字偏置机制用于改善ASR推断阶段中的关键字的召回率。 KWS模块应用多个标准,以确定关键字的缺席或存在,例如多级匹配,模糊匹配和连接主义时间分类(CTC)前缀分数。为了进一步改进我们的系统,我们对CN-Celeb数据集进行半监督学习,以获得更好的概括。在VKW任务中,BBS-KWS系统实现了基线的显着收益,并在两条轨道中获得了第一名。
translated by 谷歌翻译
RGB-D显着性检测将来自RGB图像和深度图的信息集成在挑战条件下改善突出区域的预测。 RGB-D显着性检测的关键是在两个模态的多个尺度上完全挖掘和保险丝信息。以前的方法倾向于通过本地操作分开应用多尺度和多模态融合,这不能捕获远程依赖性。在这里,我们提出了一个基于变换器的网络来解决这个问题。我们所提出的架构由两个模块组成:基于变换器的模态功能增强模块(TWFEM)和基于变压器的特征融合模块(TFFM)。 TFFM通过同时将特征与来自多个位置的两个模式集成在所有位置上的特征来进行足够的特征融合。 TWFEM通过在TFFM之前的同一模态中选择和集成来自其他刻度的互补信息来增强每种比例的特征。我们表明,变压器是一种统一的操作,它在特征融合和特征增强中具有良好的功效,并简化了模型设计。六个基准数据集的广泛实验结果表明,我们所提出的网络对最先进的RGB-D显着性检测方法表现出有利。
translated by 谷歌翻译
预计变形量子算法将展示量子计算在近期嘈杂量子计算机上的优点。然而,由于算法的大小增加,训练这种变分量子算法遭受梯度消失。以前的工作无法处理由现实量子硬件的必然噪声效应引起的渐变消失。在本文中,我们提出了一种新颖的培训方案,以减轻这种噪声引起的渐变消失。我们首先介绍一种新的成本函数,其中通过在截断的子空间中使用无意程可观察来显着增强梯度。然后,我们证明可以通过从新的成本函数与梯度优化原始成本函数来达到相同的最小值。实验表明,我们的新培训方案对于各种任务的主要变分量子算法非常有效。
translated by 谷歌翻译
多年来,通过广泛研究了与量化的神经网络。遗憾的是,在GPU上的有限精度支持(例如,INT1和INT4)上通常限制具有多样化的精度(例如,1位重量和2位激活)的事先努力。为了打破这种限制,我们介绍了第一个任意精密神经网络框架(APNN-TC),以充分利用对AMPERE GPU张量核心的量化优势。具体地,APNN-TC首先结合了一种新的仿真算法来支持与INT1计算基元和XOR /和BOOLEAN操作的任意短比特宽度计算。其次,APNN-TC集成了任意精密层设计,以有效地将仿真算法映射到带有新型批处理策略和专业内存组织的张量核心。第三,APNN-TC体现了一种新型任意精密NN设计,可最大限度地减少层次的内存访问,并进一步提高性能。广泛的评估表明,APNN-TC可以通过Cutlass内核和各种NN模型实现显着加速,例如Reset和VGG。
translated by 谷歌翻译
A key technical challenge in performing 6D object pose estimation from RGB-D image is to fully leverage the two complementary data sources. Prior works either extract information from the RGB image and depth separately or use costly post-processing steps, limiting their performances in highly cluttered scenes and real-time applications. In this work, we present DenseFusion, a generic framework for estimating 6D pose of a set of known objects from RGB-D images. DenseFusion is a heterogeneous architecture that processes the two data sources individually and uses a novel dense fusion network to extract pixel-wise dense feature embedding, from which the pose is estimated. Furthermore, we integrate an end-to-end iterative pose refinement procedure that further improves the pose estimation while achieving near real-time inference. Our experiments show that our method outperforms state-of-the-art approaches in two datasets, YCB-Video and LineMOD. We also deploy our proposed method to a real robot to grasp and manipulate objects based on the estimated pose. Our code and video are available at https://sites.google.com/view/densefusion/.
translated by 谷歌翻译